Dalam akselerasi GPU, kita harus meninggalkan pola pikir "komputasi dulu". Kinerja modern ditentukan oleh Manajemen Memori: pengaturan alokasi data, sinkronisasi, dan optimisasi antara host (CPU) dan perangkat (GPU).
1. Ketidakseimbangan Memori-Komputasi
Sementara throughput aritmetika GPU ($TFLOPS$) melonjak tajam, bandwidth memori ($GB/s$) tumbuh jauh lebih lambat. Hal ini menciptakan celah di mana unit eksekusi sering "kelaparan", menunggu data dari VRAM. Akibatnya, Pemrograman GPU sering kali merupakan pemrograman memori.
2. Model Roofline
Model ini menggambarkan hubungan antara Intensitas Aritmetika (FLOPs/Byte) dan kinerja. Aplikasi biasanya terbagi menjadi dua kategori:
- Terbatas oleh Memori: Dibatasi oleh bandwidth (lereng curam).
- Terbatas oleh Komputasi: Dibatasi oleh TFLOPS puncak (langit-langit horizontal).
3. Pajak Perpindahan Data
Hambatan kinerja utama jarang berasal dari matematika; melainkan latensi dan biaya energi dalam mentransfer satu byte melalui bus PCIe atau dari HBM. Kode performa tinggi memprioritaskan keberadaan data dan meminimalkan transfer antara host dan perangkat.